寻找更好的问题

原文:In search of better questions | Patreon 上的 Andy Matuschak

我有一连串极具攻击性的问题可描述我的工作:书籍之后的媒介是什么?是屏幕上的书页图像吗?是讲座视频吗?为什么所有答案都这么无聊?关于学习、感知、行动的重要想法又在哪里?

我一直在探索记忆系统如何回答这个问题。但我认为,为了记忆系统上实现点有趣的东西,要超越现有的对记忆系统的理解。我的目标并不是「做个放大版 Anki」。而是为了理解学习、感觉、思考的方式而建立原型系统,并从中获得新见解——而后用这些见解创造新系统。

具体而言,我每天面对的最大挑战是问出足够好的问题——解答这些问题,能极大改变我们理解现状的方式。我写的这篇颇有些闷气的文章,就是为了在此总结我面对的挑战。我们会姗姗来迟一些无聊,糟糕的问题,并试图找到发现更多有趣问题的办法。

量子国度已经积累了几百万个数据点。看上去很不错!人们听到这个消息时往往相当兴奋,好像积累了大量数据就能产生全新理解一样。但从这些数据中提取意义,你需要好的问题。更为致命的是:如果你心中没有好问题,那么你甚至可能没有收集到正确的数据。

我已经对量子国度的数据进行了几十次分析,跨越了许多对照试验。如果我是初级学者的话,我可能已经用这些实验结果写出了几篇论文。我得多攒点发表/引用的次数!但我没有发表任何这些研究,因为我认为这些研究提出的问题还不够好。我得到的结果太狭隘了,太依赖于局部细节。

提出好问题是很难的,而部分困难在于大部分论文没有问出好问题。不加筛选地选取一部分论文,里面往往都是些无聊的问题,对于领域的进展毫无助益,读了这些论文,你的品味也会变得同样无趣。

容易提出的问题通常是渐进式的。这些问题接纳现有框架的参数,然后试图澄清一些扩展或变化。「一年级学生在学习科学概念时......是否表现出间隔效应?」这样的实验可以增加理解,但和发现该效应的最初实验不可等量齐观。

另一组显然的问题来源于「我们能用收集到的数据做什么?」,而不是「我们真正想知道什么,以及我们如何收集数据来了解它?」这种以数据为中心的痴迷,在硅谷中很常见,让人觉得厌烦:哇,你有这么多的数据!让我们来优化东西!让我们来优化事物吧!我们当然可以利用这些数据来产生一个更有效的复习算法?是的,当然,但效率低下并不是阻碍记忆系统的原因:它们相当高效,即使是使用愚蠢的算法也是如此!为什么算法优化问题是你想问的问题?在大多数情况下,我认为答案是「因为它很容易」。

分析量子国度的记忆数据

这里有一个关于量子国度的坏问题,你可以问:**它有用吗?**这个问题有几个关键问题。第一个问题是:「有用」是什么意思?第二是:像这样一个是/否的问题,所能提供的信息太少。第三是:尽管有阶段性,间隔重复得到了充分的支持,「是」应该被视为零假设。但了解这个问题失败的原因可以帮助我们写出更好的问题。

这里有一个更好的——但仍然是坏的——问题,你可以问关于量子国度的问题:参与的读者中有多少人最终可靠地记住了所有的材料?我从方法上对这个问题做出无聊的抱怨:与什么相比?「参与的读者」是什么意思?「最终」是什么意思?幸存者效应如何?但是缺乏严谨性并不是这个问题的真正问题。真正的问题是:一个答案甚至意味着什么?如果答案是 80%,你的理解与答案是 70% 的世界有什么不同?这个问题的答案能让我们对量子国度有什么了解,更不用说对人们的学习/感觉/行为有什么了解?

让我们再试一次:在不同的时间段,如果读者做复习环节,与那些做了复习的人相比,他们会记得多少量子国度的材料?这个问题似乎有些糟糕,因为它不那么精确。是的,你需要确定几个要素才能得到一个真正的答案。但抛开严谨性不谈,这是一个更好的问题,因为它开始进入了学习的动力。这是我们的第一个例子问题,它可能会教给我们一些普遍性的东西。

重要的是要记住,毕竟(我就在这里提醒自己!):这才是重点——学习一些可推广的东西。我们正在努力学习一些可能有助于我们建立下一个系统,下一个类别的系统。重点不是(就像科技界通常的做法一样)产生实验数据,以显示「我们的产品有效!」在一些营销页面上。去他妈的。重点是洞察力和其下游的后果。

因此,让我们在可泛化性上多下功夫。这里有一个更不精确的问题,但我觉得它更有趣:一个特定的复习事件对一个人的记忆有什么影响?在这个问题出现的前一刻,他们的头脑处于一种状态。然后他们回答了这个问题,他们的头脑就处于另一种状态,并有持续数周或数月的持久变化。**发生了什么?**我们能描述这种变化吗?这种变化取决于什么参数?它的静止性是什么?从本质上讲,我们能不能建立一个函数,描述提取对记忆的动态影响?

去年夏天,我对这个问题产生了兴趣,并且意识到数百万个数据点实际上不能帮助我回答这个问题,因为它们缺乏沿必要轴线的变化。我不得不人为地引入可控的变化(例如调度的随机变化),并等待新数据的积累。这是一个痛苦但宝贵的教训。

这类问题的另一个问题是,它可能意味着构建一个模型。有关间隔重复的文献中充满了各种模型,例如预测各种间隔后的回忆概率。我对这些模型持非常怀疑的态度。它们可能具有一定的预测性,但我不认为它们具有很强的解释力。我们应该如何理解「回忆概率」实际上的含义?当我在某一时刻有 60% 的机会记住一个答案时,实际上发生了什么,使我的想法与另一个我有 70% 的机会记住的答案不同?这不是我大脑中的骰子的问题。已经有各种尝试将经验性的概率模型与记忆的理论框架结合起来,但这种模型充满了「让我们通过假设指数拟合和做逻辑回归来估计一个概率......」预测性多于解释性。我不相信它。

量子国度有一个不寻常的机会,可以用较少的建模技巧来探索记忆的动态性。例如,像 SuperMemo 这样的系统所面临的挑战是,每个用户都写自己的问题。因此,对于一个特定的人回答一个特定的问题,例如第三次,只有一个样本。在那一刻,要么是「记住了」,要么是「没记住」。或者,好吧,一个 1 - 5 的「评分」。你不会得到一个很好的连续值,如果不做某种曲线拟合估计,就没有办法谈论当时回答该问题的「回忆概率」。是 80%?85 %?你的估计结果有多好?那么,你必须使用另一个模型来评估,根据估计值对后续数据点的解释程度。这就是我们所说的「在上面擦一些线性代数」的理解方法。不要误会我的意思:你可以在没有解释理解的情况下产生有用的系统!但是,识别这样的系统是有帮助的。但是把这种地方作为潜在的机会来识别是很有帮助的。

在量子国度,每个人都会回答同样的问题,所以我们有很多的样本来应对各种情况。我们不需要估计「提取概率」:我们可以看一下群体的比例如何在不同的桶之间转移。例如,在最初阅读文章时记住这个问题五天后复习的 5 万人中,有多少人记住了这个答案?与那些在最初阅读几周后被要求复习同一问题的人的比例相比,情况如何?这里不需要模型。或者你可以把它看成是在一定概率上对隐藏的「提取强度」变量的频率进行估计,我想。不管怎么样,我认为这对于理解这个问题是很好的基础条件。

当有人难以记住一张卡片时,我们应该怎么做?是的,我们可以改变复习安排,但还有什么?我对重试机制进行了对照试验,它似乎有帮助,特别是在学习过程的早期。但这是一个相当难操作的工具。重读?将被遗忘的主题分解成更详细的成分?提供替代的例子?补充解释?或者,也许你可以什么都不做,如果有足够多的其他相邻卡片,这些卡片最终会帮助记忆本来难以记忆的卡片。对我来说,这些干预问题比复习安排的优化问题要有趣得多。

对记忆研究感到厌烦

为了便于讨论,我们来尝试一种不同的方法,进一步远离经过充分研究的 SRS (间隔重复系统)范式。想象一下,你不能问:「用户记得某个答案吗?」。关于阅读信息性文本,一般来说我们可以问出什么样的问题?关于助记媒介呢?

这是一个很好的视角,因为它提醒我们,迈克尔和我并没有把这个媒介设想成一个更容易使用的 Anki。只是,我们很容易问人们是否能记住媒介所提出的问题的答案。所以,我们很容易不小心把注意力集中在这里,尽管其他因素可能更重要。但这是一种懒惰,而且不太可能产生变革性的洞察力。

我们可以说:看,间隔效应和测试效应已经被研究得够多了。它们能可靠地产生稳定的记忆编码。如果你能更好地理解它们,你也许可以让它们更有效地工作。但是它们确实已经很有效了。就死记硬背的问题而言,也许这些问题已经解决地很充分了。

但死记硬背并不是那么有趣。记忆是学习的代理,而学习是有意义的启用的代理。那么,我们能对学习说些什么呢?在什么情况下,可靠的记忆能在多大程度上转移到学科的开放式任务中?也就是说:如果你学过量子国度,你能向别人解释量子计算的课题吗?你能解决以前没见过的(简单)问题吗?你能为一个目的创造电路吗?你能发现与你对经典计算机的理解有未提及的联系吗?更具体一点:作者的暗示是什么?卡片的哪些特征似乎能促进这种类型的迁移学习,以及通过哪些机制?

我们对量子国度的一个核心假设(有待测试!)是,助记媒介可能对下游的课题有重大影响。也就是说,如果你通过助记文本学习第一章,你在学习第二章时会更快吗?更准确吗?更深入吗?你能学习以前实际上无法学习的课题吗?这里有什么关键的相互作用?据推测,有些卡片比其他卡片更重要——这有什么特点?据推测,在练习量和对下游课题的影响之间存在着一种非线性关系——它是什么,它在哪些方面是可塑的?这种影响的上限是什么?为了描绘一幅生动的具体画面:我们能可靠地使一个典型的青少年学习研究生水平的材料吗?

创造力如何?创意从何而来?在《看见别人没有看见的东西》中,Gary Klein 提出,产生洞察力的关键模式包括注意到联系和矛盾(以及其他一些因素,在此不太相关)。注意到联系和矛盾的倾向似乎非常依赖于一个人的记忆中的内容那么:记忆系统可以使我们更有洞察力吗?据推测,某些类型的卡片比其他类型的卡片更有帮助——这有什么特点?特殊的以综合为导向的卡片是否有帮助,或者影响更多的是对基础知识的扎实理解的功能?如果我们设计一个新的「记忆系统」,其唯一目的是对创造性工作产生下游影响,它将是什么样子?它是否会涉及提取练习?

去他妈的「学习」:那么**行动呢?**什么样的学习会导致世界上的下游行动,而不仅仅是为了学习而学习?我们如何设计环境来支持产生这种行动的因素?如何促进与朋友的精彩对话?

那么行为改变呢?启明卡真的有用吗?我们怎样才能写出好卡片,其效果有多广泛?作者提供这种卡片是否有价值,还是必须由读者来创作?也许有一些快乐的媒介?我曾建议,对于像元理性这样的主题,与材料的长时间接触可能会变成媒介的主要价值。我们怎么知道这是否是真的?如果「扩展接触」真的是首要目标,我们应该围绕什么样的基本「名词」和「动词」来建立一个交流系统?

在《量子国度》的用户访谈中,有个令人惊讶的主题——复习环节对读者的身份产生了影响。在几个月的时间里,每隔几天参与有关量子计算的问题,使读者开始认为自己是「一个研究量子计算的人」,这比他们在几个月前的一个下午简单地阅读一篇说明文要直观得多。我完全不明白这一点!我不明白如何知道它是否正在发生,或者发生了什么,或者它的影响是什么——更不用说如何以任何更普遍的方式来描述与文本或媒介的细节的互动。尽管我完全无法围绕这个主题问出任何好的问题,却觉得它是产生好问题的沃土。

本节中的大多数问题都没有表述得足够清晰,无法进行实际的详细探讨。将这些问题细化到可操作的程度,需要大量的洞察力——如果不对这些问题的劣质版本进行探究,可能就无法获得这种洞察力。但是,对我来说,提出这些越来越离奇的问题是一种练习,即积极拒绝那些弥漫在记忆系统和相邻的「学习」技术的文献中的令人目眩的无聊问题。

————————

所有这些关于问题的喋喋不休并不只是空想。我有几个即将启动的项目,我的问题对它们来说是相当不够的!

我现在正与一位经济学教授合作,在一个班级里,我们围绕类似助记媒介的互动进行随机对照试验。我们已经有了核心的机制,所以现在的问题是:我们到底应该在课堂上测量什么?我的意思是,是的,当然,我们会记录他们的课堂考试成绩和多次复习尝试。但是,如果只是简单地发现「使用 SRS 的人在课堂上得到了更好的成绩」,那就相当无趣了。这就是目前的无效假设。我们的目标是要产生洞察力。那么,我们应该在访谈中得到什么?以及在开放式的项目中?我不担心预先登记我的假设或类似的东西。我们所做的一切都是探索性的,旨在改进我们所问的问题。但我确实想确保我们记录的是我们需要记录的内容,以回答广泛的问题。

同样,我对 David Chapman 的新的元理性文章感到兴奋,它结合了 Orbit 的卡片来加强其观点。它与《量子国度》和《如何写出好卡片》都很不一样:它在某种程度上是一篇议论文,尽管它也是一篇说明文,引入了比卡片写作指南中的工具更抽象的工具。到目前为止的反馈很有意思。它有些地方不合适。但是,我认为它也不是有效。我在这里的问题仍然相当薄弱。目前我还没有深入研究我们拥有的数据,但我将在下周进行研究。